昇腾+verl:基于昇腾超节点DeepSeek R1模型RL训练优化实践
现阶段,昇腾CANN致力于协助开发者基于NPU构建更高效的大模型强化学习训练平台,全面赋能强化学习场景深度训推优化。目前,昇腾CANN已经支持对接开源RL训练框架verl,能够适配GRPO、DAPO、PPO等多种RL训练算法。为充分释放verl在昇腾NPU集群
模型 deepseek rl deepseekr1 rl训练 2025-10-30 09:34 2
现阶段,昇腾CANN致力于协助开发者基于NPU构建更高效的大模型强化学习训练平台,全面赋能强化学习场景深度训推优化。目前,昇腾CANN已经支持对接开源RL训练框架verl,能够适配GRPO、DAPO、PPO等多种RL训练算法。为充分释放verl在昇腾NPU集群
模型 deepseek rl deepseekr1 rl训练 2025-10-30 09:34 2
在人工智能的赛道上,参数规模的竞赛愈演愈烈,仿佛模型的智慧只能用海量的计算资源和庞大的体积来堆砌。然而,最近的风向似乎变了,一股精细化、高效率的训练哲学正在悄然兴起。
提升 Pass@k:在提高 Pass@1 的同时,QuestA 不会降低 Pass@k 性能 —— 事实上,它通过让模型在多次尝试中进行更有效的推理,从而提升了模型能力。
近期,Thinking Machines Lab (由 OpenAI 前 CTO Mira Murati 创立) 发布了一篇文章——《克服LLM推理中的不确定性》,指出问题的核心在于缺乏批次不变性(batch invariance)。
随着DeepSeek、GPT-4o、Gemini等模型的激烈角逐,大模型“深度思考”能力的背后,强化学习(RL)无疑是那把最关键的密钥。